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。 国 内 心理 统计 方法 研究 热点 回顾 (Section of Research Methods)。 


编者 按 : 

心理 学 在 中 国 的 发 展 方兴未艾 ， 而 用 以 支撑 心理 学 研究 的 各 种 统计 方法 也 取得 了 长 足 的 发 展 。 本 期 刊 发 温 忠 麟 
教授 研究 团队 撰写 的 一 组 专栏 文章 ,主题 为 “新 世纪 20 年 国内 心理 统计 方法 研究 热点 回顾 ”,， 涵盖 了 6 个 热点 方向 。 
目的 有 两 个 :一 是 总 结 新 世纪 20 年 国内 期 刊 作者 在 心理 统计 方法 研究 上 的 贡献 ， 让 读者 了 解 国内 期 刊 作者 长 期 致力 
于 “将 科研 成 果 写 在 祖国 大 地 上 ”， 并 且 在 许多 热点 问题 的 研究 上 紧 跟 国际 前 沿 ， 部 分 方向 还 做 出 了 具有 国际 先进 水 
平 的 研究 成 果 。 二 是 关注 读者 兴趣 ,就 相关 议题 如 何在 实际 中 应 用 , 根据 需要 通过 借鉴 发 表 于 英文 期 刊 的 研究 成 果 
真 补 空缺 ， 并 让 读者 了 解 前 沿 研 究 进展 情况 。 该 组 文章 在 综述 的 基础 上 提出 了 不 少 创新 性 的 总 结 和 推论 。 例 如 , 在 
社 科 研究 领域 ,存在 大 量 “ 橘 生 淮南 则 为 橘 ， 生 于 淮北 则 为 机” 这 类 因 调 节 作用 导致 的 不 可 重复 性 ， 因 而 “心理 学 研究 
有 可 重复 性 危机 ?可 能 是 一 个 伪 命 题 ; 零 假 设 显著 性 检验 (NHST) 已 经 发 展 成 一 套 组 合 方法 ,各 种 试图 取代 NHST 的 
复杂 统计 方法 , 不 能 只 是 满足 于 验证 是 否 比 NHST 更 好 ， 而 应 当 看 看 是 否 能 比 这 套 组 合 方法 更 好 ; 如 果 一 个 统计 模 
型 中 的 每 个 变量 的 合成 分 数 的 信 度 都 不 小 于 0.95, 使 用 显 变 量 分析 与 使 用 潜 变 量 分 析 的 结果 差别 不 大 ; 等 等 。 希 页 
该 组 文章 有 助 于 读者 恰当 应 用 所 论 的 统计 方法 ， 并 为 心理 学 的 进一步 发 展 带 来 方法 上 的 启发 。 
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摘 要 新 世纪 20 年 来 国内 假设 检验 方法 学 研究 内 容 可 分 为 如 下 几 类 : 零 假设 显著 性 检验 的 不 足 、p 值 的 使 
用 问题 、 心 理学 研究 的 可 重复 性 问题 、 效 应 量 、 检 验 力 、 等 效 性 检验 、 其 他 与 假设 检验 关联 的 研究 。 零 假设 
显著 性 检验 已 经 发 展 成 一 套 组 合流 程 : 为 了 保证 检验 力 和 节省 成 本 ， 实 验 研 究 需 要 做 先 验 检验 力 分 析 预 估 样 
本 容量 , 但 问卷 超过 160 人 在 传统 统计 中 就 没有 必要 这 样 做 。 当 拒绝 零 假 设 时 ， 应 当 结合 效应 量 做 出 结论 。 当 
不 拒绝 零 假 设 时 ， 需 要 报告 后 验 检验 力 ; 如 果 效 应 量 中 或 大 而 检验 力 不 够 高 ， 则 可 增加 被 试 再 行 分 析 ， 但 这 
一 过 程 应 主动 披露 ， 报 告 最 后 的 实际 姜 值 并 对 可 能 犯 的 第 一 类 错误 率 做 出 评估 。 

关键 词 ” 假 设 检验 ,p 值 ， 效应 量 ,检验 力 ， 等 效 性 检验 
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假设 检验 是 推断 统计 中 的 重要 内 容 ,， 通 过 样 设 显著 性 检验 (Null Hypothesis Significance Testing, 
本 信息 来 判断 对 总 体 参 数 或 总 体 分 布 的 假设 是 否 NHST) 做 出 的 。 零 假设 也 称 为 原 假设 。 
可 信 , 包括 参 数 检验 和 非 参 数 检验 ( 温 忠 入，2016; 国内 外 不 同学 科研 究 者 对 假设 检验 都 有 深入 
IKER, REF, 2015)。 常 用 的 均值 差异 检验 属于 的 讨论 。 在 国内 ， 上 世纪 90 年 代 开始 零星 出 现 介 
参数 检验 ， 而 正 态 性 检验 、 独 立 性 检验 属于 非 参数 绍 性 质 的 文章 ， 后 面 将 会 提 到 。 新 世纪 后 ， 相 关 的 
检验 。 通 常 报告 最 多 的 统计 检验 结果 是 根据 零 假 研究 多 了 起 来 , 尤其 是 2003 年 之 后 。 以 中 国 知 网 
(https:/www.cnki.net/) 全 文 数据 库 为 数据 源 ， 出 版 
年 限 设 为 2001~2020 年 ,关键 词 包括 “假设 检验 ”、 
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设 检 验方 法 学 研究 论文 169 篇 (不 计 应 用 为 主 的 文 
章 )。 PEN E 1， 发 文 较 多 的 学 
科 为 : 数学 与 统计 62 篇 、 医 药学 33 篇 、 心 理学 
29 篇 ,其 中 心理 学 期 刊 上 的 文章 在 最 近 20 年 快速 
增长 。 这 些 文章 可 以 分 为 如 下 几 类 : 对 NHST 的 
认识 , NHST 的 不 足 ,p 值 的 使 用 问题 ,心理 学 研究 
的 可 重复 性 问题 ,效应 量 指标 及 其 大 小 标准 ， 检 
验 力 ,等 效 性 检验 ， 其 他 假设 检验 关联 研究 。 本文 
对 各 类 研究 进行 回顾 并 做 出 总 结 。 
效应 量 (effect seize) 和 统计 检验 力 (power of 
statistical test， 以 下 简称 检验 力 ) 是 温 忠 麟 等 (2021) 
总 结 的 新 世纪 20 年 国内 心理 统计 方法 研究 10 个 
本 文 将 其 拓展 为 假设 检验 及 其 关联 问 
» BRS 与 统计 和 医药 学 期 刊 发 表 的 论文 更 
这 与 其 他 热点 以 心理 学 期 刊 论文 居多 的 情况 
< 相信 这 是 因为 假设 检验 是 统计 学 的 基础 ， 
各 学 科研 究 者 都 会 感 兴趣 。 


#1 2001~2020 年 国内 不 同学 科 假设 检验 及 其 关联 问 
题 发 文 数 量 一 览 
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统 仿真 、 武 器 装备 试验 、 军 事 工程 等 。 


1 零 假 设 显著 性 检验 的 认识 
研究 者 们 对 NHST 的 认识 主要 分 为 两 个 部 分 


1.1 深化 对 假设 检验 本 身 的 认识 

已 有 研究 从 不 同 角 度 深化 了 对 假设 检验 的 认 
W, 包括 假设 的 确定 、 两 类 错误 率 、 区 间 估 计 与 
假设 检验 、 单 尾 检验 、 其 他 假设 检验 方法 等 。 

杨 桂 元 和 刘 德 志 (2012) 较 为 全 面 地 介绍 了 参 
数 假 设 检验 中 的 一 些 概念 , 包括 基本 原理 、 检 验 
的 p 值 、 两 类 错误 、 单 尾 检 验 的 假设 与 拒绝 域 等 。 
吴 启 富 和 张 玉 春 (2012) 从 小 概率 原理 人 手 ， 揭 示 
了 假设 检验 的 方法 论 基 础 ， 罗 荣华 和 吴 锟 (2014) 
则 从 正 态 分 布下 抽样 极限 误差 角度 分 析 了 假设 检 
验 的 相关 问题 。 

对 于 零 假设 和 备 择 假设 的 确定 , 人 研究 者 形成 
如 下 共识 : 零 假 设 与 备 择 假设 的 地 位 是 非 对 称 的 
要 根据 具体 问题 谨慎 选择 合适 的 零 假 设 ,应当 将 
和 
假设 ( 韩 兆 洲 ， 魏 章 进 , 2005; 贺 文 武 , 2004; 金 晓 
I, 2004; 牛 莉 , 2005; 杨 少 华 ， 杨 林涛 , 2009; 张 
凌 翔 , 2006)。 

以 下 研究 同时 考虑 了 两 类 错误 。 徐 浪 和 马 丹 
(2001) 指 出 零 假设 的 选择 要 考虑 两 类 错误 率 。 李 文 
华 和 雷 金 星 (2005) 分 析 了 单 均值 统计 检验 中 的 两 
类 错误 ,认为 两 类 错误 不 外 ea 
孙 利 末 (2010) 讨 论 了 两 类 错误 率 受 样本 容 
啊 情 况 。 房 祥 忠 和 陈 家 易 (2003) 将 de 
Maximum 算法 运用 于 假设 检验 中 ,不仅 分 析 了 两 
类 错误 率 和 临界 值 ， 还 简化 了 比较 复杂 的 假设 检 
验 问题 。 张 晓 敏 (2008) 基 于 马 氏 样本 的 最 优势 检验 
来 估计 两 类 错误 率 , 推广 了 经 典 的 Neyman-Pearson 
基本 引 理 。 甘 伦 知 (2011) 探 讨 了 对 第 二 类 错误 的 控 
制 ,提出 需要 给 出 能 辨别 的 最 小 相对 差距 ,通过 
选择 样本 容量 可 在 一 定 程度 上 控制 两 类 错误 。 

就 参数 的 区 间 估 计 与 假设 检验 的 关系 而 言 ， 
sr db 
推断 总 体 ( 攀 明 智 , 王 芬 玲 ，2006; trži, 2003), 
pele a aetna ee 
珍 , 2004)。 不 同 之 处 在 于 : 第 一 , 假设 检验 是 在 统 
计 对 象 的 总 体 参数 未 知 时 , 通过 对 总 体 的 部 分 了 
解 对 参数 做 出 某 种 假设 ( 即 零 假设 ,通常 是 研 
究 者 希望 为 真 的 研究 假设 的 对 立 面 ), 然后 根据 样 
本 数据 信息 判断 是 否 拒绝 Ho。 区 间 估 计 则 是 在 选 


= 


一 是 深化 对 假设 检验 本 身 的 认识 ,二 是 澄清 应 用 
研究 中 对 假设 检验 的 误解 ， 并 提出 相应 的 解决 
对 策 。 


定 置 信 水 平 1- a 后 根据 样本 数据 求 得 参数 可 能 的 
范围 (区 间 ) (ETAR, 2003)。 第 二 , 假设 检验 是 判 
断 结 论 是 否 成 立 ， 而 区 间 估 计 要 分 析 的 是 范围 问 
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BER, EZ, 2006). B=, 区间 估 计 中 的 
置信 水 平和 假设 检验 中 的 显著 性 水 平 不 同 ( 戴 金 
辉 , 2019)， 即 置信 水 平 为 l-a, 显著 性 水 平 为 ao 
第 四 ， 假 设 检 验 和 置信 区 间 检 验 中 标准 误 的 计算 
不 一 样 ， 假 设 检验 中 标准 误 的 估计 需要 假定 Ho A 
立 , 而 置信 区 间 检 验 则 不 需要 (何平 平 , 2004)。 

在 单 尾 假设 检验 的 研究 中 ， 钟 路 (2004) 提 出 
当 样本 统计 量 恰好 位 于 两 个 临界 值 之 间 时 ， 应 做 
出 由 于 样本 信息 不 足 无 法 进行 统计 推断 的 结论 。 

而 彭 玉 兵 (2010) 借 鉴 击 伯 - 费 硕 纳 定 律 ， 提 出 了 一 
种 考虑 显著 性 水 平 相对 增 减 率 的 方法 , 来 解决 样 
本 统计 量 落 在 接受 域 与 拒绝 域 的 边界 时 的 研究 结 
i, 另外, 王 雪 琴 (2010) 认 为 均值 单 尾 检验 有 
局 限 性 ， 必 须 进 行 两 次 单 尾 检验 ( 即 双 侧 检验 ) 才 
使 检验 更 完善 。 
一 些 研究 者 也 提出 了 新 的 假设 检验 方法 ， 如 
灰色 统计 假设 检验 方法 ( 李 勇 , 2011, 2012, 2016)、 
以 模糊 集合 理论 为 基础 建立 用 隶属 度 描述 的 假设 
检验 ( 林 晓 辉 ，2006a，2006b; BHI, EPE, 
2006)、 多 元 模糊 数据 的 假设 检验 方法 ( 郑 文 瑞 ， 丁 
栋 全 ，2007) 、 另 类 区 间 估 计 检 验方 法 等 (江海 峰 ， 
2009), 但 这 些 方 法 还 极 少 用 于 实践 。 

1.2 ”澄清 假设 检验 应 用 中 的 误解 

不 同学 科 都 对 NHST 存在 一 些 误解 现象 ， 研 
究 者 对 此 进行 了 澄清 ， 如 统计 显著 性 与 实际 显著 
PERS 22 Fl (ERC, 2003; WR, KER, 2014)， 参 
数 的 显著 性 检验 不 应 该 被 称 为 信和 度 检 验 ( 黄 嘉 优 ， 
2005; 施 能 等 ,2009), 统计 结果 显著 无 法 说 明 实 
际 的 效应 有 多 大 ( 陈 启 山 ，2006), 但 显示 了 差异 不 
是 由 抽样 误差 造成 ( 何 晓 东 ，2004; WAE 等 ， 
2012), 显著 性 检验 不 能 够 避免 两 类 错误 的 发 生 
( 李 世 明 等 , 2004)。 假 设 检验 方法 的 使 用 要 考虑 
不 同 的 研究 设计 和 数据 类 型 ( 田 庆 丰 ， 张 功 员 ， 
2002; 王 伟 ，2004; 张 功 员 , 2002), 研究 者 抽样 前 
应 当 确定 合适 的 样本 容量 ， 并 在 结果 中 报告 研究 
的 效应 量 ( 郭 璐 , 2016)。 另 外 ,假设 检验 用 于 和 军事 
工程 中 要 关注 两 类 错误 的 关联 性 和 样本 大 小 ( 夏 
佩 伦 等 , 2015), 而 医学 研究 的 结果 要 注意 统计 学 
意义 和 临床 意义 的 区 别 ( 姚 晨 , 2007)。 当 实际 应 用 
中 出 现 真 值 与 假设 值 差 异 微小 的 情况 时 ， 为 使 决 
策 更 加 客观 应 当 限 定 样本 容量 的 范围 ( 王 雅 玲 ， 
2006)。 


mb 


2 零 假 设 显著 性 检验 的 不 足 与 争议 


随 着 对 NHST 认识 的 加 深 ,其 本 身 的 局 限 和 
不 足 也 逐渐 显现 出 来 ， 进 而 引发 了 研究 者 们 的 质 
疑 和 讨论 。 
2.1 零 假设 显著 性 检验 的 不 足 
NHST 的 不 足 主要 表现 在 以 下 几 个 方面 。 第 
一 ， 研 究 结果 的 显著 性 无 法 代表 实际 显著 性 ( 焦 表 ， 
张 敏 强 , 2014; RH, TAH, 2011)。 检 验 结果 显 
著 反 映 了 统计 上 的 显著 性 ， 仅 表明 差异 不 是 由 偶 
然 因素 造成 的 ( 段 乃 华 , 王 元 佳 , 2011), 不 同 处 理 
组 (如 实验 组 与 对 照 组 ,多 种 教学 方法 组 等 ) 之 间 确 
实 存 在 差异 。 但 统计 显著 性 不 等 于 实际 显著 性 ， 
读者 不 应 该 对 统计 术语 与 日 常 术语 做 出 同样 的 理 
MORER, 2016; RHA, WE, 2011)。 第 二 ， 显 
著 性 检验 的 分 析 过 程 要 求 控 制 第 一 类 错误 率 ( 正 
态 情形 即 显著 性 水 平 a), 通常 不 考虑 第 二 类 错误 
RA, 因而 对 检验 力 (1-B) 的 关注 也 不 足 。 第 三 ， 
显著 性 的 检验 结果 具有 不 稳定 性 ( 焦 璨 ， 张 敏 强 ， 
2014; 张 静 ，2012)， 检 验 研 究 假 设 的 过 程 中 选择 
不 同 的 统计 量 可 能 会 得 出 不 一 致 的 结论 ( 黄 闪 闪 ， 
高 瑞 华 , 2014)。 第 四 ， 零 假设 的 选择 可 能 是 任意 指 
派 的 ( 黄 闪 闪 ， 高 瑞 华 ，2014)， 导 致 其 设 定 主 观 性 
太 强 ( 罗 晓 娟 ，2011)。 此 外 ,假设 检验 的 不 足 还 有 
不 能 同时 考察 多 个 研究 假设 ( 张 静 ，2012) 和 依赖 
PEAS AS et (FBR, KER, 2014)。 
2.2 FR TAIE IE BY SIN 
NHST 自身 存在 的 不 足 引 发 了 学 术 界 的 讨论 ， 
有 研究 者 认为 NHST 存在 逻辑 漏洞 ， 应 用 价值 不 
大 ( 辛 自强 ,2010)。 但 温 忠 锯 和 吴 艳 (2010) 回 应 了 
这 一 说 法 , 认为 NHST 是 可 用 的 ， 因 为 显著 性 已 
经 告诉 了 研究 者 根据 样本 推断 的 结果 多 大 程度 是 
抽样 造成 的 。 他 们 还 介绍 了 国外 争议 的 情况 ， 
结论 是 NHST 可 以 继续 使 用 ,但 仅仅 报告 NHST 
结果 是 不 够 的 。 

从 假设 检验 遭受 的 争议 来 看 ， 吕 小 康 (2012) 
在 分 析 了 假设 检验 思想 的 提出 者 Fisher 与 Neyman- 
Pearson 在 统计 模型 方法 论 、 两 类 错误 率 、 显 著 性 
水 平等 方面 存在 的 分 歧 后 ， 认 为 NHST 存在 的 争 
议 是 心理 统计 的 教育 模式 造成 的 ,是 对 于 统计 推 
论 背 后 的 思想 了 解 匮乏 导致 的 .而 仲 晓 波 等 (2008) 
的 研究 回应 了 心理 学 中 对 假设 检验 的 批评 ， 还 提 
出 对 于 绝 大 部 分 心理 学 实验 来 说 ， 数 据 分 析 适 合 
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采用 频率 学 派 的 方法 ,建议 报告 效应 量 及 其 置信 
区 间作 为 对 传统 假设 检验 的 改进 和 补充 ( 仲 晓 波 ， 
2010a, 2010b, 2016). 

尽管 NHST 饱 受 争议 和 批评 , 但 它 依然 是 社 
会 科学 实证 研究 中 常用 的 假设 检验 方法 ， 因 为 它 
满足 了 研究 者 追求 知识 的 客观 性 与 确定 性 ， 以 及 
将 自身 学 科 发 展 成 为 一 门 科 学 分 支 的 期 望 ， 从 这 
个 意义 上 来 说 ,NHST 已 从 普通 的 统计 工具 上 升 
为 了 一 种 科学 范式 (如 小 康 , 2014)。 


3 了 值 的 使 用 问题 


p ERRE H 为 真 时 ， 样 本 数据 结果 或 更 
极端 结果 出 现 的 概率 ( 简 记 为 P( 样 本 |H0))。 但 bp 值 
的 含义 容易 引起 误解 ， 下 面 文献 指出 了 在 应 用 中 
对 p 值 的 各 种 误解 。 误 解 1: p 值 是 给 定 样 本 数据 
条 件 下 Ho 的 正确 概率 , 衡量 了 零 假 设 成 立 的 可 能 
性 ( 傅 军 和 , 2009; 昌 佳 ， 乔 克 林 , 2010; 孙 红 卫 等 ， 
2012), 实际 上 是 将 条 件 概 率 P( 样 本 |H0) 误 解 为 条 
件 概率 P(Eo| 样 本 ) 了 。 误 解 2: p 值 表示 了 实际 效 
应 差异 大 小 ( 王 伟 ，2004; 35, YH set, 2006), p 
值 越 小 反映 组 间 差 异 越 大 ( 陈 微 等 , 2011; Lu & 
Belitskaya-Levy, 2015; 孙 红 卫 等 ,2012)。 误解 3: 
p 值 越 小 表明 重复 实验 中 出 现 有 统计 学 意义 结果 
的 可 能 性 越 大 ( 孙 红 卫 等 , 2012)。 误 解 4: p 值 越 
大 反映 了 支持 零 假设 的 证 据 越 强 ( 陈 苓 等 , 2011)。 
此 外 , p 值 还 有 一 个 缺点 ， 即 当 样 本 容量 很 大 时 ， 
总 能 得 到 很 小 的 p 值 ( 虽 佳 ， 乔 克 林 ，2010; 孙 红 
E 等 ,2012)。 因 此 ,应 用 工作 者 需要 正确 理解 p 
值 ， 并 报告 具体 的 p (A(R 等 ， 2011; FR, 
2005; 张 号 ， 肖 景 榨 , 2006)。 

2016 年 美国 统计 协会 发 表 了 《关于 统计 显著 
性 与 p 值 》 的 官方 声明 , 提出 了 6 条 正确 使 用 p 
值 的 准则 (Wasserstein & Lazar，2016)， 这 份 声明 
再 次 引起 了 国内 科研 工作 者 对 p 值 的 广泛 讨论 。 


红 梅 , 2017)、 检 验 力 ( 程 开明 ， 李 泗 娥 , 2019)、 贝 
叶 斯 因子 ( 程 开明 ， 李 泗 娥 , 2019; 余 红 梅 , 2017)、 
错误 发 现 率 ( 程 开 明 ， 李 泗 娥 ，2019) 等 指标 作为 p 
值 的 蔡 代 和 补充 ， 多 进行 重复 实验 ( 程 开明 , AN 
ik, 2019)， 也 可 使 用 元 分 析 方 法 ( 余 红 梅 , 2017)。 


4 心理 学 研究 的 可 重复 性 问题 


2015 年 开放 科学 协作 组 的 科学 家 团队 在 
Science 上 发 表 了 一 项 研究 “Estimating the 
reproducibility of psychological science”， 重 复 了 
刊登 在 心理 学 顶级 期 刊 上 的 100 项 研究 , 结果 只 
有 36% 的 实验 结果 得 到 重 现 (Open Science 
Collaboration, 2015)。 这 一 人 研究 受到 了 心理 学 及 整 
个 社会 科学 领域 的 关注 ， 展 开 了 关于 心理 学 研究 
可 重复 性 问题 的 探讨 。 

不 少 人 将 心理 学 研究 可 重复 性 危机 归 因 于 
NHST 体系 ( 胡 传 鹏 等 , 2016; XIE S, 2018; 骆 
KAR, 2017)。 具 体 地 ， 骆 大 森 (2017) 得 出 心理 学 研 
究 可 重复 性 危机 有 两 大 来 源 , 一 个 是 传统 虚无 假 
设 显著 性 检验 体系 的 制约 ， 另 一 个 是 非 统 计 学 因 
K, 包括 人 为 偏 误 、 发 表 偏见 和 可 疑 研究 操作 等 。 
仲 晓 波 (2015) 认 为 是 过 多 的 额外 变量 导致 了 心理 
学 实验 研究 的 可 重复 性 较 低 。 匣 丹 丹 等 (2016) 认 为 
统计 显著 性 检验 的 不 确定 性 、 样 本 和 检验 力 问 题 、 
统计 方法 和 模型 误 用 、 实 验 设 计 灵 活 和 选择 性 报 
告 是 可 重复 性 问题 的 原因 。 刘 佳 等 (2018) 提 出 研究 
人 员 的 偏差 性 操作 是 影响 可 重复 性 的 重要 原因 。 
胡 传 鹏 等 (2016) 认 为 心理 学 研究 的 可 重复 性 问题 
是 因为 发 表 的 研究 假 阳性 过 高 ， 而 更 深层 的 原因 
却 是 出 版 偏见 和 过 度 依赖 虚无 假设 。 

就 如 何 提高 研究 的 可 重复 性 , 研究 者 一 方面 
建议 心理 学 的 研究 结果 要 报告 效应 量 及 其 置信 区 
间作 为 检验 结果 的 补充 ( 吴 艳 ， 温 忠 锯 ，2011; 仲 
晓 波 , 2010b, 2015, 2016)， 另 一 方面 提出 使 用 贝 叶 


不 同 领 域 的 研究 者 从 各 自 的 研究 视角 讨论 了 p 值 
的 使 用 情况 ,并 提出 了 一 些 补充 和 改进 方法 。 孝 
丽 等 (2016) 建 议 基于 p 值 的 推理 要 有 完整 的 研究 
报告 和 透明 的 研究 过 程 , 余 红 梅 (2017) 提 出 要 报 
告 准确 的 p 值 并 综合 使 用 假设 检验 , 在 计算 p 值 
前 给 出 显著 性 水 平 a GAGE 等 , 2019), 并 引入 
置信 区 间 ( 程 开明 , EMR, 2019; EE, HE, 
2017; 余 红 梅 ，2017) 、 效 应 量 ( 程 开明 ， 李 泗 娥 ， 
2019; WICH 等 , 2019; RK, W—mS, 2019; R 


斯 学 派 的 统计 检验 方法 作为 NHST 的 替代 或 补充 ， 
计算 贝 叶 斯 因子 来 做 出 统计 决策 ( 明 传 月 等 , 2018; 
FIL 等 ,2018)。 但 目前 贝 叶 斯 因子 的 应 用 还 很 有 
BR, 分 析 软 件 也 少 ( 许 岳 培 等 ， 印刷 中 )。 


5 效应 量 指标 及 其 大 小 标准 


效应 量 ， 也 称 为 效果 量 ， 是 衡量 实验 处 理 效 
应 的 指标 。 它 不 仅 反 映 了 统计 检验 效应 的 大 小 ， 
也 反映 了 两 个 总 体 受 某 事物 影响 后 的 差异 程度 
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(HPT, 2010)。 效 应 量 能 够 区 分 统计 显著 性 和 实 
际 显著 性 ， 佑 计 检 验 力 ， 并 通过 元 分 析 方法 比较 
前 人 的 研究 结果 ( 郑 昊 敏 等 ,2011)。 张 力 为 和 祁 
国 雇 (1998) 率 先 介绍 并 在 运动 心理 学 研究 中 使 用 
了 效应 量 。 国 内 学 者 对 效应 量 的 研究 主要 分 为 以 
下 几 类 : 一 是 介绍 科学 研究 报告 中 常用 的 几 种 效 
应 量 ， 并 采用 具体 例子 对 效应 量 的 计算 方法 和 使 
用 标准 进行 站 述 ， 二 是 对 多 种 类 型 的 效应 量 指标 
进行 了 归纳 和 分 类 ， 以便 读者 在 不 同 的 条 件 下 选 指标 ， 即 Pu, Ruy Rog 和 ,建议 使 用 RR 和? 
择 和 报告 合适 的 效应 量 ; 三 是 探讨 了 什么 样 的 统 指标 及 其 置信 区 间 。 而 温 忠 膀 等 (2016) 明 确 指出 
计量 可 以 作为 效应 量 的 指标 , 分 析 了 效应 量 指标 R 型 指标 和 ?都 缺乏 单调 性 ，Wen 和 Fan (2015) 
应 具备 的 性 质 。 已 经 证 明了 把 ab 的 最 大 可 能 值 作为 P 的 分 母 是 
5.1 常用 的 效应 量 指标 错误 的 , 终结 了 e 这 个 在 国际 上 曾经 流行 的 中 介 
权 朝 鲁 (2003) 最 先 介 绍 了 心理 学 研究 中 的 几 效应 量 的 合法 性 ， 建 议 同时 报告 多 个 中 介 效 应 量 
种 效应 量 及 其 评价 标准 ， 即 d, Bich n? A o AY 指标 的 原始 估计 和 标准 化 估计 。 
定 方 法 。 而 温 晚 (2011) 也 描述 了 体育 科研 中 常用 的 52 ”效应 量 指标 分 类 


5 种 基于 非 重 半 法 的 效应 量 指 标 ( 即 扩 速 线 指数 、 
提高 率 差 异 、 非 重要 对 占 比 、 控 制 基线 趋势 的 非 
EA Tau 值 和 非 重 全 数据 占 比 ), 并 结合 实际 例子 
进行 了 阐述 ， 最 后 提出 了 非 重 受 法 效应 量 的 选择 
和 评价 标准 : 不 仅 要 根据 实验 数据 特征 选择 合适 
的 效应 量 指标 ， 还 需要 考虑 效应 量 指标 的 鉴别 
力 、 精 度 和 检验 力 等 因素 。 

方 杰 等 (2012) 介 绍 了 4 种 中 介 效 应 的 效应 量 


效应 量 指标 及 其 标准 ， 即 d, n, noA go UTES 
人 有 系列 研究 详 述 了 Z 检验 、t 检 验 、F 检 验 和 灾 


研究 者 对 目前 存在 的 多 种 类 型 的 效应 量 指标 
进行 了 分 析 和 总 结 , 详 见 表 2。 郑 昊 敏 等 (2011) 将 


效应 量 划 分 为 差异 类 、 相 关 类 和 组 重 释 类 三 种 类 
型 ， 卢 谢 峰 等 (2011) 则 将 效应 量 区 分 为 标准 差异 
型 和 关联 强度 型 两 类 。 焦 璨 和 张 敏 强 (2014) 根 据 汤 
普 森 的 划分 标准 ， 将 效应 量 指标 区 分 为 三 类 ， 即 
标准 化 平均 数 差 异 效应 量 ,未 调 校 的 考虑 方差 的 
效应 量 和 调 校 的 考虑 方差 的 效应 量 。 消 显 伟 (2016) 
认为 效应 量 可 分 为 组 间 差 异类 (qd 类) 和 相关 系数 
类 ( 类 ) 两 类 , 但 未 具体 介绍 对 应 的 效应 量 指 标 ， 
而 是 按照 参数 检验 和 非 参 数 检验 的 不 同方 法 详细 
介绍 了 效应 量 。 总 的 来 看 ,效应 量 的 分 类 较为 类 
似 , 一 致 的 意见 是 将 效应 量 指标 分 为 差异 类 和 其 


检验 下 的 效应 量 指 标 (d, n’, np, @ 和 Cramer’s_V) 
及 其 计算 方法 和 评价 标准 ( 胡 人 竹 戎 ，2010; HATS 
戴 海 琦 , 2011, 2017)。 刘 铁 川 等 2019) 介 绍 了 一 种 
方差 分 析 效应 量 的 新 指标 一 一 广义 eta 方 , 可 以 同 
时 考虑 操作 因素 和 个 体 差 异 ， 实 现 跨 研究 设计 效 
应 量 的 可 比 性 ,但 在 国内 的 应 用 不 多 ,并 且 无 法 
计算 置信 区 间 。 沈 光辉 等 (2019) 也 介绍 了 教育 研究 
中 均值 1 检验 、 方 差分 析 (F 检验 )、 回 归 系 数 检 验 、 
相关 系数 检验 和 x 检验 的 常用 效应 量 指标 。 另外 ， 
李海峰 和 姜 小 峰 (2014) 还 介绍 了 病例 对 照 研 究 中 
用 比值 比 反映 的 效应 量 OR 值 和 Q 值 。 


续 志 琦 和 辛 自强 (2018) 分 析 了 单 被 试 实验 的 他 类 别 。 
R2 效应 量 指标 分 类 
国内 文献 效应 量 分 类 对 应 的 指标 
:异类 Cohen 的 d, Glass 的 A,Hedge 的 g 
Fs Fe fe 相关 类 F~ Vpb x Fbs Fequivalenty 中 及 Cramer 的 V 系数 等 EF pa 统计 量 的 相关 系数 等 ; 
(2011) 方差 Kh, K: n’, o, s; 以 及 Falertings effectsizes “contrast 等 
HES Improvement-Over-Chance index(I 效应 量 ) 
标准 差异 型 d, A, &> ZD, S corrected 
关联 强度 型 ( 非 平方 尺度 ) 9, Vers rp 
关联 强度 型 (平方 尺度 ) 1. Martial > o, R, Reartal ? Reusted 
标准 化 平均 数 差异 效应 量 ”Hedges HY g, Cohen K$ d 
Fay 未 调 校 的 考虑 方差 的 效应 量 “到 ,下 
调 校 的 考虑 方差 的 效应 量 Ezekiel 的 R”, o? 
蒲 显 伟 (2016) 组 间 差 异类 (4 类 ) 、 相 关系 数 类 ( 类 ) 
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5.3 ”效应 量 指标 的 性 质 

效应 量 表示 了 人 研究 结果 的 实际 显著 性 ， 是 元 
分 析 和 检验 力 分 析 不 可 缺少 的 参数 。 那 究竟 哪些 
统计 量 适 合作 为 效应 量 的 指标 呢 ? TE ERE (2016) 
提出 了 效应 量 指标 应 当 具 有 的 一 些 性 质 : (1) 与 测 
量 单位 无 关 ， 而 得 到 与 测量 单位 无 关 的 效应 量 有 
两 种 方式 ， 一 是 标准 化 效应 ， 二 是 将 效应 量 定义 
为 一 种 比例 。(2) 相 对 于 效应 而 言 具 有 单调 性 ， 即 
其 他 条 件 不 变 的 情况 下 ,研究 中 感 兴趣 的 效应 ( 绝 
对 值 ) 越 大 ,效应 量 ( 绝 对 值 ) 也 应 该 越 大 。(3) 不 受 
样本 容量 的 影响 ,也 就 是 效应 量 不 会 随 样 本 容量 
的 增 大 而 系统 变 大 。 其 他 还 可 考虑 的 性 质 有 非 负 
性 、 有 界 性 和 正规 性 。 
5.4 效应 量 及 其 评价 标准 总 结 

美国 心理 协会 写作 手册 从 1994 年 起 要 求 研 
究 者 报告 心理 学 实验 的 效应 量 和 检验 力 ， 我 国 心 
理学 重要 期 刊 则 从 2013 年 开始 明确 要 求 报告 效 
应 量 ,报告 效应 量 已 成 为 心理 学 研究 论文 发 表 的 
标准 之 一 。 而 效应 量 作为 假设 检验 的 补充 ， 不 少 
研究 者 还 建议 增加 报告 效应 量 的 置信 区 间 ( 卢 谢 
峰 等 , 2011; RH, THLE, 2011; 仲 晓 波 , 2010b, 
2015，2016)， 因 为 这 样 有 利于 比较 不 同 研究 间 的 
误差 大 小 ， 提供 更 丰富 的 信息 ， 也 能 帮助 研究 者 
得 出 正确 的 结论 ( 王 表 等 , 2019)。 为 增强 应 用 工 
作者 对 效应 量 置信 区 间 的 理解 和 应 用 , Se 
(2019) 以 1 检验 中 4 和 方差 分 析 中 的 让 为 例 ， 展 示 
了 效应 量 置信 区 间 的 计算 公式 和 软件 实现 过 程 。 


在 不 同 的 研究 条 件 和 实验 设计 下 ， 可 供 选择 
的 效应 量 指 标 很 多 。 综 合 国内 外 已 有 的 效应 量 研 
究 结果 , 表 3 总 结 了 常见 统计 方法 的 常用 效应 量 
指标 及 其 评价 标准 。 

当然 ,提高 实验 研究 的 效应 量 更 应 该 通过 完 
善 研究 设计 和 减少 实验 误差 来 实现 。 效 应 量 的 评 
价 标准 并 不 存在 唯一 准则 ,需要 结合 研究 主题 、 
理论 背景 、 研 究 设 计 类 型 、 实 验 控制 过 程 等 多 种 
因素 来 确定 ( 卢 谢 峰 等 , 2011)， 也 可 以 参考 元 分 
析 报 告 或 者 同类 研究 的 结果 。 


6 检验 力 


检验 力 ， 有 的 文献 也 称 为 统计 功效 、 检 验 效 
能 、 检 验 功 效 、 统 计 效 力 等 ,是 友 为 假 时 正确 拒 
绝 而 的 概率 。 金 炳 陶 和 马 承 需 (1992) 率 先 介绍 了 
检验 力 。 国 内 有 关 检 验 力 的 研究 可 分 为 统计 方法 
的 检验 力 分 析 和 研究 效应 的 检验 力 分 析 。 统 计 方 
法 的 检验 力 指 的 是 某 种 统计 方法 能 有 多 大 的 可 能 
性 检测 到 真实 存在 的 差异 ， 而 研究 效应 的 检验 力 
指 的 是 研究 者 感 兴趣 的 某 些 研究 效应 被 不 同 研究 
重复 发 现 的 可 能 性 。 影响 检验 力 的 因素 有 效应 量 、 
样本 容量 和 显著 性 水 平 ， 如 果 保 持 其 他 条 件 不 变 ， 
检验 力 会 随 效 应 量 、 样 本 容量 和 显著 性 水 平 的 增 
大 而 提高 ( 温 忠 刨 , 2016; 吴 艳 ， 温 忠 刨 , 2011). 
6.1 统计 方法 的 检验 力 

统计 方法 的 检验 力 分 析 主 要 集中 于 统计 学 和 
医药 学 两 个 领域 。 统 计 学 的 研究 探讨 了 重复 测量 


表 3 研究 报告 中 常见 效应 量 及 其 评价 标准 


统计 分 析 方 法 效应 量 评价 标准 
_(%i-*) 
1 检验 d= 一 一 一 0.2 为 小 , 0.5 为 中 , 0.8 为 大 
Spooled 
相关 分 析 皮尔 逊 相关 系数 0.1 为 小 , 0.3 为 中 , 0.5 为 大 
方差 分 析 1 = Žena 0.01 为 小 , 0.06 为 中 , 0.14 为 大 
total 
可 归 分 析 R? 0.02 为 小 , 0.13 为 中 , 0.26 为 大 


b 
中 介 效 应 分 析 Py =— (ab Wc AS) 
Cc 


调节 效应 分 析 ”加 入 调节 项 后 ,回归 方程 的 R? 变化 值 ( AR?) 
注 : 1 检验 、 相 关 分 析 、 方 差分 析 效 应 量 评价 标准 参见 Cohen (1988); 回归 分 析 则 按 其 中 的 效应 量 /7 的 标准 (0.02 为 小 , 0.15 


ek 
sat 


效应 按 相关 系数 标准 ， 中 介 效 应 占 总 效应 的 20% 以 上 


调节 项 额外 解释 因 变 量 比例 不 低 于 2% 


AP, 0.35 为 大 ) 换 算得 到 , 不 过 ， 如 果 自 变量 只 有 一 个 ,应 将 相关 系数 的 平方 作为 效应 量 。 有 文献 (如 薄 显 伟 , 2016) 指 出 ,这 
些 切 分 点 (如 d = 0.2) 可 看 成 是 效应 量 (小 ) 的 区 间 下 限 。 中 介 效 应 和 调节 效应 分 析 未 见 到 有 标准 , 但 对 于 传统 的 中 介 模 型 ， 总 


效应 应 当 达 到 0.2 左右 、 中 介 效 应 占 比 超过 20% 才 有 意义 ; 对 了 
3%~8% (Champoux & Peters, 1987)， 应 当 不 低 于 2% 才 有 意义 ( 温 忠 


FF 调节 效 应 ， 有 元 分 析 发 现 调节 项 额外 解释 因 变 量 比例 通常 为 
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ial Sar SF (PR BEE, BOATS, 2007) 和 多 元 重复 测量 
试验 模型 ( 侯 紫 燕 ， 原 新 凤 ,，2007) 的 似 然 比 检验 的 
统计 功效 ,功效 函数 的 蒙特 卡 洛 模 拟 ( 张 建 侠 ， 鞠 
银 ，2012)， 双 过 变换 下 正 态 线性 回归 模型 的 功效 
函数 分 析 ( 丘 甜 等 ,2017), 三 种 非 参数 检验 方法 
( 卡 方 检验 Mann-Whitney 和 Kolmogorov-Smirnov 
仿 验 ) 的 功效 分 析 ( 刘 遵 雄 , 2018)。 而 医药 学 领域 研 
FXT logistic 回归 ( 刘 韵 源 等 , 2001; 王 慧 等 , 2019)、 
Pp 值 分 布 的 百 分 位 数 ( 丁 守 万 等 ,2004)、 变量 变换 
( 魏 杰 ， 吴 学 森 , 2006)、 两 组 1 检验 与 秩 和 检验 ( 颜 
AS 等 , 2004) 、 非 参数 检验 方法 (Wilcoxon , Kruskal- 
Wallis, Median 和 Kolmogorov-Smirnov) 的 检验 功 
效 ( 曾 艳 等 , 2011; 张 超 等 , 2008)。 
6.2 ”研究 效应 的 检验 力 

就 研究 效应 的 检验 力 而 言 ， 吴 艳 和 温 忠 乌 
(2011) 认 为 检验 力 分 析 可 以 分 为 先 验 检验 力 分 析 


常用 的 样本 容量 估计 方法 和 专业 软件 操作 ,万 起 
和 刘建平 (2007) 推 导 了 截面 研究 .观察 性 研究 的 样 
本 容量 计算 公式 ， 其 他 研究 者 也 提供 了 logistic 回 
VAGUE 等 , 2001; ER 等 , 2019)、 两 样本 均 数 
比较 、 两 样本 率 比较 和 分 层 设计 的 样本 容量 计算 
ARE 等, 2007)。 其 他 学 科 领 域 也 有 部 分 先 
验 检验 力 的 研究 ， 如 方差 检验 ( 郭 文 , 2012) 、 方 差 
区 间 估 计 和 假设 检验 ( 耿 修 林 , 2008)、 正 态 总 体 期 
TAGE P Bayes 假设 检验 (页 旭 山 ， 金 振 中 , 2012)、 
泊 松 分 布 参数 的 序 贯 概率 比 检验 ( 赵 盼 ， 宋 学 力 ， 
2016), Bayes 最 小 样本 容量 截 尾 值 序 贯 检验 ( 胡 思 
R, EAR, 2019) 等 方法 中 的 样本 容量 计算 。 
先 验 检验 力 分 析 的 目的 是 为 了 确定 研究 所 需 
的 样本 容量 ( 即 被 坛 人 数 )， 这 在 被 试 不 易 得 到 或 
者 实验 成 本 较 高 的 时 候 (如 医学 实验 、 使 用 高 级 设 
备 的 心理 与 脑 实 验 ) 很 有 必要 。 为 了 方便 研究 者 ， 


Ax hh 


(prior power analysis) 和 后 验 检 验 力 分 析 (post-hoc 我 们 采用 GPower 3.1.9.7 计算 了 常用 的 检验 方法 所 
power analysis)， 可 用 于 检验 力 分 析 的 软件 有 需 的 被 试 人 数 ( 见 表 4)。 设 定 检验 力 为 0.8， 显 著 
nQuery Advisor Release , Sample Power, G* Power , 性 水 平 为 0.05 和 0.01, 效应 量 为 小 .中 和 大 三 种 ， 
UnifyPow 和 PASS 等 。 先 验 检验 力 分 析 侧重 于 实 给 出 了 相应 方法 在 双 侧 检验 时 需要 的 被 试 总 人 
验 前 计算 研究 所 需 的 样本 容量 , 后 验 检验 力 分 析 数 。 单 侧 检 验 时 , 需要 的 被 试 比 双 侧 检验 的 要 少 。 
则 关注 数据 收集 和 分 析 后 的 实验 效应 的 检验 力 有 对 于 常见 的 统计 方法 ， 从 表 4 中 可 以 总 结 出 
多 高 。 下 面 分 别 来 看 一 下 这 两 种 检验 力 分 析 的 相 两 点 : 第 一 ， 即 使 是 小 效应 量 , 在 0.05 显著 性 水 
关 研 究 。 平 上 ,估算 的 被 试 人 数 都 不 超过 1 千 ; 第 二 ,注意 
6.2.1 先 验 检验 力 分 析 到 对 于 通常 的 研究 ,效应 量 小 的 时 候 ， 即 使 效应 

在 研究 开展 前 根据 给 定 的 显著 性 水 平 、 效 应 显著 意义 也 不 大 ( 温 忠 甩 等 ， 2016); 而 效应 量 中 
量 和 检验 力 ， 估计 研究 所 需 的 样本 容量 可 节省 实 或 大 的 时 候 , 在 0.05 显著 性 水 平 上 ,估算 的 被 试 
际 人 研究 的 成 本 ,这 也 就 是 进行 了 先 验 检验 力 的 分 人 数 不 超过 160， 所 以 当 被 试 人 数 超过 160 时 , 不 
析 。 医 药学 领域 中 陈 平 雁 (2015) 介 绍 了 临床 试验 中 需要 做 检验 力 分 析 去 确定 被 试 人 数 。 


表 4 常用 检验 方法 的 被 试 人 数 估算 
效应 量 (a = 0.05) 


效应 量 (a = 0.01) 


ale 不 中 天 不 中 K 
配对 样本 上 检验 (或 单 样本 :检验 ) 199 34 15 296 51 22 
独立 样本 1 检验 (ny/n1= 1) 788 128 52 1172 192 78 
独立 样本 1 检验 (ns/n1= 0.5) 591 和 295 96 和 48 39 和 19 879 和 439 143 和 71 57 和 29 
单 因 素 方差 分 析 ( 被 试 间 , 3 水 平 ) 969 159 66 1395 228 93 
两 因素 方差 分 析 ( 被 试 间 2x2) 787 128 52 1172 191 77 
三 因素 方差 分 析 ( 被 试 间 2x2x3) 967 158 64 1393 227 92 
单 因素 方差 分 析 ( 被 试 内 , 3 水 平 ) 163 28 12 234 40 17 
两 因素 方差 分 析 ( 被 试 内 2x2) 138 24 10 196 33 14 
相关 分 析 (2 个 连续 变量 ) 782 84 29 1163 125 42 
回归 分 析 (2 个 自 变量 ) 485 68 31 699 98 45 


TE: 按 检验 力 为 1-B = 0.8 估算 的 被 试 总 人 数 。 效 应 量 大 小 标准 见 表 3。 
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6.2.2 ”后 验 检验 力 分 析 

胡 竹 戎 (2010) 给 出 了 两 独立 样本 平均 数 差异 
显著 性 检验 的 后 验 检 验 力 估计 方法 , 根据 样本 计 
算 的 Z (Bt OA a 水平 临界 值 ,确定 可 能 犯 的 第 
二 类 错误 率 ， 进而 求 得 检验 力 1-B 的 概率 。 胡 丛 
蔷 和 戴 海 琦 (2011) 给 出 了 方差 分 析 的 后 验 检验 力 
的 计算 步骤 。 赵 礼 和 王 晖 (2019) 详 细 描述 了 后 验 检 
验 力 的 影响 因素 和 基本 分 析 流 程 ， 并 演示 了 如 何 
用 Optimal Design 软件 分 析 多 层 模型 的 检验 力 。 
而 其 他 讨论 后 验 检验 力 分 析 的 论文 也 见于 医药 学 
( 钱 俊 ， 陈 平 雁 , 2005; 吴迪 等 , 2007; WEI 等 ， 
2010) 和 管理 学 ( 陈 功 兴 , 容 迪 ，2010; 林丹 明 等 ， 
2008)。 但 从 逮 辑 上 说 ， 只 有 检验 结果 不 显著 时 ， 
才 需 要 计算 并 报告 后 验 检 验 力 。 因 为 检验 结果 显 
著 时 ， 只 可 能 犯 第 一 类 错误 ， 而 报告 检验 力 相 当 
于 报告 第 二 类 错误 率 (后 验 检验 力 = 1 - 第 二 类 
错误 率 )。 


7 等 效 性 检验 


以 差异 检验 (包括 效应 是 否 为 零 、 均 值 是 否 相 
等 ) 为 例 , 通常 的 零 假 设 是 无 差 假设 ， 而 备 择 假设 
是 想 要 验证 有 效应 (如 效应 不 是 零 、 均 值 不 相等 ) 
的 假设 。 当 拒绝 零 假 设 的 时 候 ， 犯 错误 的 概率 是 a 
(通常 是 0.05), 不 仅 明确 已 知 ， 而 且 已 经 受 控 。 但 
如 果 想 要 验证 的 就 是 等 效 (效应 为 零 、 均 值 相 等 ) 
的 呢 ?7 如 果 还 将 无 差 假设 作为 零 假设 ， 接 受 零 假 
设 的 时 候 ， 犯 错误 的 概率 (第 二 类 错误 率 ) 不 仅 需 
要 后 验 检验 力 分 析 ， 而 且 往往 都 比较 大 (例如 超过 
0.2)。 一 种 解决 的 办 法 是 等 效 性 检验 (equivalence 
testing): 借鉴 效应 量 的 做 法 ,效应 要 达到 或 超过 
一 个 界 值 才 算 有 效 ， 并 将 其 作为 零 假设 , 这 样 就 
把 希望 为 真 的 等 效 性 假设 放 在 备 择 假设 的 位 置 。 

等 效 性 检验 是 NHST 的 延伸 ， 它 用 来 检验 两 
个 总 体 的 差异 是 否 在 某 范围 之 内 ( 王 静 ， 胡 镜 清 ， 
2011)。 等 效 性 检验 的 零 假设 (Ho: |y -|2 e) 
理解 为 : 实验 组 的 效应 与 对 照 组 的 效应 如 的 差 
异 超过 了 等 效 的 界 值 c (c 是 一 个 小 的 正 数 )。 备 择 
假设 ( Hi: |y -|< c P EIE: 实验 组 的 效应 
人 与 对 照 组 的 效应 jw 的 差异 在 等 效 范围 (-c, c) 内 。 
等 效 性 检验 需要 进行 两 次 单 侧 的 NHST, 一 次 单 
侧 检 验 的 零 假 设 是 (Ho: m4- >c), 拒绝 零 假 设 
说 明 实验 组 非 优 效 ; 另 一 次 单 侧 检 验 的 零 假 设 是 
(Ho: 4-4 <c), 拒绝 零 假 设 说 明 实 验 组 非 劣 


效 。 只 有 两 次 单 侧 检验 的 p 值 都 小 于 显著 性 水 平 
o 才能 得 出 实验 组 和 对 照 组 的 效应 等 效 的 结论 
( 王 静 ， 胡 镜 清 , 2011; 于 莉莉 等 , 2005)。 
等 效 性 检验 和 NHST 有 如 下 区 别 。 第 一 , 假 
设 的 差异 。 等 效 性 检验 的 假设 都 是 围绕 实验 组 和 
控制 组 的 效应 之 差 (41 - /oo) 与 等 效 的 界 值 c 的 关系 
设 定 的 , M NHST 的 假设 都 是 围绕 1 — wo FU 0 的 
关系 设 定 的 ， 这 是 两 类 检验 的 本 质 差 异 ( 王 静 ， 胡 
镜 清 ，2011)。 因 此 , NHST 仅 有 统计 学 上 的 意义 ， 
而 等 效 性 检验 则 关注 临床 上 或 实践 中 有 没有 效 
应 。 第 二 , 检验 的 目的 有 差异 。 等 效 性 检验 的 目 
的 是 验证 实验 组 与 对 照 组 的 效应 是 否 足 够 接近 
( 即 等 效 ), 而 NHST 的 目的 是 检验 实验 组 与 对 照 
组 的 效应 之 差 是 否 足 够 大 ， 大 到 能 在 统计 上 的 识 
别 出 来 。 在 这 个 意义 上 ,等 效 性 检验 和 NHST 的 
作用 刚好 相反 。 第 三 ，NHST 的 “差异 有 统计 学 意 
义 ”( 即 p < 中 也 有 可 能 实验 组 和 控制 组 的 效应 是 
等 效 的 , NHST 的 “差异 无 统计 学 意义 ”( 即 p > a) 
并 不 表示 实验 组 和 控制 组 的 效应 一 定 等 效 ( 于 莉 
Fil 等 , 2005)。 

此 外 ,， 安 胜利 的 系列 研究 也 分 析 了 显著 性 检 
验 和 等 效 性 检验 的 联系 与 区 别 ( 安 胜利 ，2007a， 
2007b; 安 胜利 ， 陈 平 雁 ，2007)， 并 给 出 了 不 同 条 
件 下 基于 p 值 进 行 等 效 性 判定 的 标准 。 其 他 的 讨 
论 还 有 非 劣 效 性 试验 数据 的 假设 检验 ( 李 路 路 等 ， 
2014; 刘 玉 秀 等 , 2008) 生物 等 效 性 (一 种 等 效 性 
检验 ) 研 究 的 受 试 者 数量 和 事后 统计 功效 等 ( 代 骏 
豪 ， 郑 强 , 2017; MILA 等 , 2009)。 


8 假设 检验 的 其 他 关联 研究 


其 他 与 假设 检验 关联 的 研究 主要 为 NHST 与 
贝 叶 斯 假设 检验 的 比较 、 有 具体 统计 方法 的 假设 检 
验 问题 。 

对 于 贝 叶 斯 假设 检验 和 NHST 的 比较 ， 和 尹 玉 
良 等 (2011) 发 现 频率 学 派 和 贝 叶 斯 学 派 在 正 态 模 
型 单 边 假设 检验 中 得 到 的 证 据 具 有 一 致 性 。 但 更 
多 研究 讨论 了 贝 叶 斯 检验 比 显著 性 检验 的 优势 : 
第 一 ， 可 利用 合理 的 先 验 信息 和 抽样 信息 减少 决 
策 损 失 ( 李 楚 进 ,万 建 平 , 2015), 但 先 验 信息 的 选 
择 通常 是 一 个 难点 ; 第 二 ， 避免 显著 性 检验 的 主 
观 性 问题 ( 黄 内 内， 高 瑞 华 ,，2014; FEH, TE 
平 , 2015); 第 三 , 同时 考虑 即 和 五 并 可 以 用 来 支 
持 瓦 ， 且 可 监控 证 据 强度 的 变化 ( 胡 传 鹏 等 ， 
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2018); 第 四 ， 揭 示 备 择 假设 与 虚无 假设 成 立 可 能 
性 的 高 低 ( 吴 凡 等 , 2018)。 

对 于 具体 统计 方法 的 假设 检验 关联 研究 涵盖 
内 容 较 多 ( 详 见 表 5), 在 此 不 一 一 叙述 。 


9 总 结 与 讨论 


91 ” 零 假设 显著 性 检验 还 可 继续 使 用 

NHST 从 数理 统计 应 用 到 包括 心理 学 在 内 的 
各 个 学 科 ,， ATAR, WEH, RAE 
质疑 、 不 断 提出 改进 和 替代 方法 的 一 系列 过 程 。 
有 关 NHST 理论 和 方法 的 研究 多 采用 公式 推导 、 
数据 模拟 和 实例 验证 的 方式 , 而且 多 集中 于 数学 
与 统计 、 医 药学 、 工 科 类 的 研究 领域 , 而 其 他 学 
科 :领域 多 采用 文献 综述 的 方式 介绍 和 澄清 假设 检 
验 的 相关 内 容 。 
NHST 还 可 以 继续 使 用 , 但 需要 有 正确 的 认 
W: 首先 , 尽管 NHST 的 不 足 和 质疑 引发 了 激烈 
讨论 , 但 它 的 地 位 依然 稳固 ， 因 为 它 已 表明 了 显 
著 性 的 研究 结果 很 不 可 能 由 抽样 波动 造成 。 第 二 ， 


显著 性 检验 的 p 值 表 示 概 率 P( 样 本 |H0),， 而 不 是 
P(Hol 样 本 ), Anderson (2020) 采 用 模拟 研究 分 析 了 
在 不 同 条 件 下 两 者 之 间 的 差异 。 第 三 , 在 报告 显 
著 性 结果 时 ， 建 议 报告 准确 的 p 值 ， 以 对 第 一 类 
错误 率 有 更 精确 的 评估 。 
9.2” 零 假设 显著 性 检验 已 经 发 展 成 一 套 组 合 拳 

虽然 NHST 仍 可 以 继续 使 用 , 但 不 仅 要 报告 
统计 检验 结果 ,还 要 报告 效应 量 (如 果 显 著 ) 或 检 
验 力 (如 果 不 显著 ), NHST 的 流程 如 下 ( 见 图 1): 

第 一 , 采样 前 要 进行 先 验 检验 力 分 析 ， 计算 
出 合适 的 样本 容量 。 但 对 于 常见 的 统计 分 析 ( 如 线 
性 回归 和 方差 分 析 等 ), 问卷 研究 被 试 超过 160 人 
通常 不 必 做 先 验 检验 力 分 析 。 

第 三 ， 收 集 数据 ,分 析 并 报告 参数 的 NHST 
检验 结果 和 置信 区 间 。 

第 三 ， 如果 统计 显著 (此 时 只 可 能 犯 第 一 类 错 
误 )， 计 算 并 报告 效应 量 ， 根 据 效应 量 大 小 做 出 
结论 。 


第 四 ， 如 果 统 计 不 显著 (此 时 只 可 能 会 犯 第 二 


表 5 具体 统计 方法 的 假设 检验 关联 研究 
方法 假设 检验 的 内 容 


贝 叶 斯 样本 均值 假设 检验 ( 林 晓 辉 , 2001), 样本 量 与 方差 对 1 检验 和 4 检验 的 影响 ( 金 晓 峰 , 2004)， 两 组 均值 比较 似 然 


均值 比 检验 ( 邓 文 丽 , 2003)， 多 元 总 体 均值 差异 显著 性 检验 ( 


1 晓 明 , 傅 球 生 , 2005), 多 维 正 态 总 体 零 均值 假设 检验 ( 李 荣 


比较 tE, 徐 九 韵 ， 2001), 正 态 总 体 均 值 与 标准 差 比 的 置信 区 间 检 验 ( 何 春 2011), 两 总 体 均值 半 参 数 假 检验 (万 树 文 , 方 
芳 , 2012), 正 态 总 体 均 值 区 间 佑 计 和 假设 检验 的 R 函数 ( 张 应 应 ， 魏 角 , 2014) 


方差 分 类 模型 的 假设 检验 (王石 青 ,， 史 慧 娟 , 2007), 广义 p- 值 法 在 异 方差 时 优 于 广义 FAREA, REE, 2007), 


方差 
分 析 


方差 的 区 间 估 计 和 假设 检验 的 R 函数 ( 张 应 应 , BEBE, 2014)， 基 于 最 小 广义 特征 值 的 两 因素 多 元 方差 分 析 检 验 ( 江 忠 
fi, Bra, 2018)， 引 入 虚拟 变量 的 单 因 素 方差 分 析 ( 传 营 营 等 , 2019) 


相关 ”相关 系数 显著 性 检验 的 几何 意义 ( 姚 菊香 等 , 2007), 独立 总 体 和 相关 总 体 的 相关 系数 假设 检验 ( 江 梅 ， 2010)， 小 样 


分 析 本 Kendall t 相关 系数 显著 性 检验 ( 胡 春 健 , 2013) 


二 项 分 布 假设 检验 平均 试验 数 公 式 ( 孙 晓 峰 ，, 赵 喜 春 , 2003)， 二 项 分 布 贝 叶 斯 假设 检验 方法 (页 旭 山 ， 金 振 中 , 2008), 
两 个 样本 正 态 分 布 密度 比 的 假设 检验 方法 ( 件 唯 嫂 ， 熊 世 峰 ，2009)， 两 均匀 分 布 总 体 区 间 长 度 比 的 区 间 估 计 和 假设 


不 同 
分 布 


设 检 验 ( 魏 艳 华 等 , 2018) 


检验 方法 ( 郑 发 美 , 2009), 混合 Pareto 分 布 的 假设 检验 问题 ( 刘 媚 , 2011), Lomax 分 布 参数 的 区 间 估 计 和 假设 检验 问 
题 ( 龙 兵 , 2014), 二 维 连续 型 分 布 密度 函数 假设 检验 方法 ( 张 凤 宽 , 2012)， 总 体 非 正 态 时 通 近 统计 量 分 布 的 数据 的 假 


坐标 转换 模型 中 尺度 参数 假设 检验 模型 ( 徐 天 河 ， 杨 元 喜 ，2001)， 线 性 半 参 数 模型 非 参数 假设 检验 ( 丁 士 俊 ， 姜 卫 平 ， 


不 同 


2014), 线性 混 料 模型 的 假设 检验 问题 ( 黄 秀 秀 ， 张 崇 岐 , 2014),， 序 约束 下 带 有 协 变量 的 序 贯 k-out-of-n 模 型 的 假设 检 


模型 


验 问题 ( 杜 宇 静 ， 姜 丽 萍 ，2016)， 含 方程 误差 的 重复 讽 


量 误差 模型 参数 的 假设 检验 方法 ( 王 雅 慧 ， 曹 春 正 ，2016),， JE 
平稳 二 元 选择 模型 的 显著 性 检验 方法 ( 徐 鹏 等 , 2016)， 双 索 变 换 下 正 态 线性 回归 模型 参数 的 假设 检验 问题 ( 丘 甜 


等 , 2017)， 某 一 类 随机 偏 微分 方程 极 大 似 然 估计 的 假设 检验 问题 ( 王 潇 文 ， 吕 艳 , 2020) 


和 分 布 统计 量 用 于 小 样本 离散 型 多 总 体 的 假设 检验 问 


2001), 变异 的 假设 检验 ( 李 胜 联 等 , 2006; 苟 鹏 程 等 


题 ( 潘 高 田 等 ,2001), 假设 检验 的 相对 稳定 性 ( 林 路 ， 张 润 楚 ， 
, 2006), K 个 单 参数 指数 总 体 相等 的 假设 检验 方法 ( 宋 立 新 ， 张 


其 他 F, 2009), 指数 族 下 参数 双 侧 检验 的 p- 值 ( 谢 田 法 ， 吴 启 光 ,2011),， 对 应 分 析 应 用 中 的 假设 检验 问题 ( 李 克 均 等 ， 


2008), 多 重 假设 检验 的 参数 估计 问题 ( 刘 遵 雄 ， 田 丙 


H, 2017)， 大 维 数据 总 体 协 方差 是 否 等 于 Eo oE 的 假设 检验 


问题 (王晓波 ， 李 会 琼 , 2017)， 权 数 可 靠 性 的 假设 检验 范式 ( 谢 忠 秋 , 2018) 
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类 错误 )， 计 算 效 应 量 ， 当 效应 和 


小 时 接受 零 假设 ; 


当 效 应 量 中 等 或 大 时 ， 则 需 进行 后 验 检 验 力 分 析 : 
如 果 检 验 力 高 ， 则 接受 零 假 设 ;) 如 果 检 验 力 不 到 
80%， 则 可 增加 样本 容量 重新 分 析 结 果 并 做 出 判 
断 。 但 增加 样本 容量 的 这 一 过 程 应 主动 披露 ， 报 
告 最 后 的 实际 p 值 并 对 可 能 犯 的 第 一 类 错误 率 做 
出 评估 ， 因 为 中 途 增 加 被 试 会 导致 第 一 类 错误 率 
的 增加 。 

Sagarin 等 (2014) 提 出 了 Pauementea 指标 来 衡量 
数据 增加 带 来 的 一 类 错误 率 的 膨胀 程度 。Ppaugmented 
的 计算 基于 初始 样本 容量 (N1)、 增 加 的 样本 容量 
(Wy))、 统 计 显 著 性 的 临界 值 (porit, 通常 设置 为 0.05) 
和 最 终 组 合 数 据 集 中 的 p 值 (yoomvinea))， 其 论文 中 
也 提供 了 相应 的 R 脚本 和 Excel 计算 表 (http:// 
www.paugmented.com)。 也 有 一 些 学 者 提出 了 独立 
分 段 程序 (independent segments procedure) 、 序 列 
概率 比 了 上 检验 (sequential probability ratio t test) 
方法 (Miller & Ulrich, 2021; Schnuerch & Erdfelder, 
2020)， 控 制 统 计 决 策 错 误 概 率 ， 提 高 研究 效率 。 
但 在 实际 应 用 中 可 以 简单 化 , 如果 最 终结 果 在 0.05 
水 平 上 显著 , 那么 第 一 类 错误 率 基本 上 在 0.08 以 
下 ; 换 一 个 角度 说 ， 如 果 最 后 得 到 的 p 值 小 于 
0.01, 那么 第 一 类 错误 率 基 本 上 不 会 超过 0.05。 


i 
fee] [中 等 ] [不 重要 |] [不 重要 | 【后 验 检验 力 分 析 
向 H Es 
y AA AA 
Pea E 


图 1 零 假设 显著 性 检验 的 统计 分 析 流 程 图 
(RHA, TEARS, 2011) 


图 1 所 示 的 NHST 流程 其 实 是 一 套 组 合 拳 ， 
既 要 看 显著 性 结果 ， 也 要 看 效应 量 大 小 甚至 检验 
力 ， 综 合 做 出 推断 。 一 方面 ,这 套 组 合 拳 可 以 避免 
单纯 依靠 显著 性 (p < 0.05) 可 能 引起 的 选择 性 报告 


数据 、p 值 操纵 等 现象 ,避免 得 到 假 阳性 结果 ( 显 
著 但 效应 量 低 )， 同 时 避免 检验 力 低 导致 的 假 阴 性 
(不 显著 但 有 不 低 的 效应 量 和 实际 意义 ); 另 一 方 
il, 各 种 试图 取代 NHST 的 复杂 统计 方法 ,不 能 
只 是 满足 于 验证 比 NHST 优胜 , 而 应 当 看 看 是 否 
能 比 上 述 的 组 合 拳 优胜 。 遗 憾 的 是 ， 目 前 各 种 试 
图 取代 NHST 的 复杂 统计 方法 (如 贝 叶 斯 因子 法 ) 
都 只 显示 与 单纯 的 NHST 结果 比较 有 优势 ， 而 未 
有 考虑 与 上 述 的 组 合 拳 比较 有 优势 ， 因 而 未 能 确 
定 替代 方法 是 否 更 好 。 不 过 ， 如 果 作 为 补充 方法 
使 用 是 可 取 的 , 可 以 提供 多 一 点 信息 。 
9.3 ”深究 一 下 “可 重复 性 ”问题 

心理 学 研究 的 可 重复 性 问题 也 部 分 归 因 于 
NHST 这 一 检验 模式 ,但 是 ,可 重复 性 问题 需要 严 
格 地 界定 ， 否则 “可 重复 性 ”在 社 科 研究 领域 可 能 
是 伪 命 题 。 在 社 科 研究 领域 , 既 有 大 量 的 “种 瓜 得 
瓜 、 种 豆 得 豆 ” 那 样 的 可 重复 性 主 效应 也 有 大 量 
“ 橘 生 淮南 则 为 橘 ， 生 于 淮北 则 为 枫 ?那样 的 因 调 
节 作 用 导致 的 不 可 重复 性 。 种 族 、 文 化 背景 、 年 
龄 、 地 域 、 时 间 等 等 都 可 能 是 调节 变量 ， 使 得 研 
究 效 应 时 强 时 弱 。 当 一 项 研究 不 能 重复 时 , 虽然 
有 可 能 是 操作 不 严谨 、 方 法 不 当 造 成 的 ,但 也 可 
能 是 调节 作用 造成 的 , 重复 研究 的 时 候 毕 竞 是 时 
过 境 迁 ,不 能 简单 看 是 否 能 重复 去 评判 一 项 研究 
的 科学 性 。 
9.4 相关 议题 的 研究 拓展 

结构 方程 中 的 模型 拟 合 检验 、 测 量 不 变性 检 
验 都 是 希望 得 到 不 显著 的 结果 ， 等 效 性 检验 的 思 
想 很 适合 这 类 检验 。 已 有 研究 将 等 效 性 检验 拓展 
到 结构 方程 模型 评价 (Yuan & Chan, 2016; Yuan 
et al., 2016; EBH 等 , 2020)， 做 法 还 是 设 定 适 当 
的 “等 效 ” 界 值 并 改变 零 假设 。 

检验 力 方面 的 拓展 是 针对 传统 统计 以 外 的 模 
型 进行 检验 力 分 析 。 例 如 ,针对 中 介 效 应 模型 的 检 
验 力 分 析 (Schoemann et al., 2017; Zhang, 2014), 针 
对 结构 方程 模型 的 检验 力 分 析 (Wang & Rhemtulla, 
2021)。 

效应 量 的 拓展 是 在 传统 统计 以 外 的 模型 中 ， 
利用 方差 分 解 提 出 新 的 R”- 型 效应 量 。 例 如 , Rights 
和 Sterba (2018) 提 出 单 层 和 多 层 回归 混合 模型 
(regression mixture model, 回归 混合 模型 允许 截 
距 和 和 斜率 因 潜 在 类 别 而 异 ) 的 12 种 尺 -效应 量 。 
Rights 和 Sterba (2019) 将 因 变 量 的 方差 进行 分 解 ， 
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提出 多 层 线性 模型 的 12 种 R -XUE Liu 和 Yuan 


(1), 156-157. 
傅 营 营 ， 田 振 坤 ， 李 裕 梅 (2019). 方差 分 析 的 


五 


归 解读 与 


(2021) 将 因 变 量 的 方差 进行 分 解 ， 提 出 调节 效应 
的 4 种 R?- 效 应 量 。Liu 等 Gin press) 将 中 介 效 应 的 
方差 进行 分 解 ， 提 出 有 调节 的 中 介 效 应 的 效应 量 


iia. Lit SRR, 35(8), 77-80. 
甘 伦 知 . (2011). Ecce HP Pe Hill 8 RR. Arr 
5 HE, (22), 35-37. 


9$， 即 中 介 效 应 的 方差 中 有 多 少 能 被 调节 变量 解 
释 。 刘 红云 等 2021) 将 自 变量 对 因 变 量 的 效应 的 方 
差 进行 分 解 ， 提 出 了 有 中 介 的 调节 效应 的 效应 量 
， 即 自 变 量 对 因 变 量 的 效应 的 方差 中 ， 能 被 有 中 
介 的 调节 效应 解释 的 比例 。 
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Abstract: In the first two decades of the 21st century, the research of hypothesis test and related topics in 


China’s mainland can be divided into the following categories: Deficiency of null hypothesis significance 


test, use of p-value, repeatability of psychological research, effect size, the power of statistical test, equivalence 


test, and other research related to hypothesis test. NHST has been developed into a set of procedures as 


follows. To ensure power of statistical test and save costs, experimental research often needs to do a priori 


power analysis to estimate the required sample size, while questionnaire studies with more than 160 


participants usually does not need to do so for traditional statistical analyses. When the null hypothesis is 


rejected, a conclusion should be made in combination with an effect size. When the null hypothesis is not 


rejected, the posterior power of statistical test needs to be reported; if the effect size is medium or large and 


the power of statistical test is less than 80%, more participants could be added for further analysis, but this 


process should be disclosed, the final p-value should be reported, and the type I error rate should be evaluated. 


Key words: hypothesis testing, p-value, effect size, power of statistical test, equivalence test 


